1 Wstępne przetwarzenie danych

Ze zbioru danych wczytanego z pliku all_summary.csv zostały usunięte wiersze z wartościami atrybutu res_name w zbiorze {UNK, UNX, UNL, DUM, N, BLOB, ALA, ARG, ASN, ASP, CYS, GLN, GLU, GLY, HIS, ILE, LEU, LYS, MET, MSE, PHE, PRO, SEC, SER, THR, TRP, TYR, VAL, DA, DG, DT, DC, DU, A, G, T, C, U, HOH, H20, WAT}. Podczas wczytywania danych res_name równe “NA” zostały zastąpione wartościami pustymi, dlatego wartości pustu zostały zastapione odpowiednim łancuchem znakóW

df[is.na(df$res_name),"res_name"] = "NA"

1.1 Przetwarzanie brakujących danych

Analiza wzorców występowania wartości pustych wykazała, że kolumna weight_col jest zawsze pusta. Po usunięci tej kolumny 91 % wierszy jest kompletnych. Proporcja niekompletnych wierszy jest niewielka, więc zostały one usunięte.

df <- df %>% select(-weight_col)
df <- na.omit(df)

Po tych operacjach w zbiorze nie ma już wartościu pustych.

1.2 Najczęstsze klasy

Do dalszego przetwarzania pozostawione zostaną tylko wiersze, dla których res_name (klasa) jest jedną z 50 najczęściej wystepujacyh klas.

2 Statystyki

2.1 Rozmiar zbioru

2.2 Podsumowanie atrybutów

int_num_cols <- as.character((data.frame(name=as.character(colnames(df)), type = sapply(df, class)) %>% filter(type %in% c("numeric","integer")))$name)
summary_df <- summary( df %>% select(int_num_cols) )
transposed_summary_df <- transpose(as.data.frame(unclass(summary_df)))
colnames(transposed_summary_df) <- c("Min", "1st Qu", "Median", "Mean", "3rd Qu", "Max")
transposed_summary_df <- cbind(Name=colnames(summary_df), transposed_summary_df)
DT::datatable(transposed_summary_df, style="bootstrap")

2.3 Rozkład liczby atomów i elektronów

2.4 Zgodność liczby atomów

Zgodność między atrybutami local_res_atom_non_h_count oraz dict_atom_non_h_count zastała obliczona przy użyciu testu Wilcoxsona.

2.5 Korelacja

Na ptrzeby policzenia korelacji zostaną usunięte kolumny mające nienumeryczne wartości oraz kolumny charakteryzujące się wariancją bliską 0.

3 Regresja

Na potrzeby regresji zostana usunięte kolumny, które są ze sobą parami skorelowane, tak aby zotało po jednej kolumnie z takich par.

Dla atomów RMSE: 0.9488917 oraz R^2 0.9948858

Dla elektronów RMSE: 12.4805215 oraz R^2 0.9806533